Постмортемы
Дмитрий Масленников, «Т-Банк»
После сбоя
- Сбор статистики
- Улучшение систем
- Материал для обучения
Сбой затронул рабочий день/сбой начался во время рабочего дня?
Триггером сбоя стал релиз?
Сбой затронул внешних клиентов?
Вызван ли сбой проблемой на базовой инфраструктуре (например, сеть)?
Мониторинг и алерты сработали корректно и доработки не требуются?
Могли обнаружить проблему на стадии тестирования?
Знали о проблеме (баге) до того, как она привела к сбою?
Сбой связан с ошибкой в действиях сотрудника при релизе, плановых работах или других работах по обслуживанию продакшна?
Сбой связан с программной ошибкой в нашем коде?
Сбой связан с естественным увеличением нагрузки?
Сбой связан с форс-мажором (отказ IT оборудования, стихийные бедствия, разрушения инфраструктуры)?
Сбой: на стороне партнёра, связан с ошибкой в купленном ПО или внешнем вендорском решении?
Сбой связан с ошибкой в опенсорсном ПО?
Сбой связан с намеренными действиями злоумышленников (взлом, DDOS, другие атаки)?
Сбой связан с проблемой коммуникации между сотрудниками: некорректная постановка задачи, ошибочное понимание требуемых действий, некачественная документация или её отсутствие?
Откатывали релиз в процессе устранения сбоя?
Применялись специальные программные хотфиксы в процессе устранения сбоя?
Привлекали больше одной SRE-команды для устранения сбоя?
Привлекали разработчиков для устранения сбоя (если есть выделенная команда SRE)?
Краткое содержание
Заботимся о тех, кому некогда читать. Стараемся заинтересовать. Обязательно охватить все аспекты понемногу.
Влияние и последствия
Кто пострадал; что наблюдалось; как отреагировали СМИ и соц-сети; выплачивались ли компенсации и т.п.
Причина и триггер
Все причины и триггер
Обнаружение
Нашли ли по мониторигу (каким именно образом), по сообщениям от пользователей. Вовремя ли сработал мониторинг.
Восстановление
Как восстановили работоспособность системы. Неверные действия. Ворк-эраунды.
Информирование
Все ли хорошо было во взаимодействии во время сбоя? Правильно ли информировали клиентов?
Что мы сделали хорошо?
Выражаем благодарность команде, которая занималась устранением сбоя. Подчёркиваем удачные решения, которые привели к быстрому устранению сбоя и повышению надёжности.
Что мы сделали плохо?
Описываем неудачные решения в процессе работы над устранением сбоя. Анализируем ошибки, внедряем рекомендации по повышению эффективности.
В чем нам повезло/не повезло
Описываем внешние факторы, на которые команда по устранению сбоя не могла повлиять.
Полученные уроки
Что в итоге нового узнали о работе наших систем, о процессах.
План действий
Улучшения технические, улучшения процессов. Включая улучшение документации, разработку служебных тулов, работу с пользователями, PR, выплату компенсаций и т.п.
Хронология
Детальный ход событий с метками времени.